Міністерство освіти і науки України
Національний університет «Львівська політехніка»
Кафедра АСУ
Лабораторні роботи №7
з дисципліни «Системи штучного інтелекту»
на тему:
“Самоорганізовані карти Кохонена”
Теоретичні відомості
Кластеризація – об'єднання в групи схожих об'єктів – є однією із фундаментальних задач в області аналізу даних і видобутку знань (Data Mining). Можна навести довгий список, де використовуються результати кластеризації: сегментація зображень, маркетинг, боротьба із шахрайством, прогнозування, аналіз текстів та багато хто інших.
Завдання кластеризації намагались сформулювати у рамках різних галузей науки, таких як: статистика, розпізнавання образів, оптимізація, машинне навчання, тощо. Це стало причиною такого різноманіття синонімів, що існують до поняття «кластер» – клас, таксон, згущення, і т.д. Нині існує досить велика кількість методів розбивки груп об'єктів на кластери, проте кластеризація з точки зору видобування знань (Data Mining) є цінною тоді, коли вона виступає лише одним із початкових етапів аналізу даних, а після виділення схожих груп застосовуються інші методи, при чому для кожної групи може будуватись своя власна модель. Такий прийом постійно використовують у маркетингу, коли спочатку виділяються групи клієнтів, покупців чи товарів, а потім для кожної з цих груп розробляється окрема стратегія.
Часто дані, з якими працює технологія Data Mining, мають такі важливі особливості:
велика розмірність (може бути до тисячі полів) та значний обсяг (сотні тисяч, або й мільйони записів) таблиць баз даних і сховищ даних (надвеликі бази даних);
набори даних містять велику кількість числових та категорійних атрибутів.
Числові атрибути даних – такі, що можуть бути впорядковані у просторі. Відповідно, категорійні атрибути даних – які не можуть бути впорядковані. Наприклад, атрибут «вік» є числовим, а «колрів» – категорійним.
Більшість алгоритмів кластеризації допускають порівняння об'єктів між собою на основі певної міри близькості (подібності). Мірою подібності називається величина, що є обмеженою та зростає зі збільшенням близькості об'єктів. Міри подібності «винаходяться» за спеціальними правилами, а вибір конкретних мір залежить від завдання, а також від шкали вимірів. Для числових атрибутів в якості міри подібності часто використовується евклідова відстань, що обчислюється за формулою:
.
Для категорійних атрибутів існують свої особливі міри подібності.
Потреба в опрацюванні великих масивів даних привела до формулювання ряду вимог, які повинен задовільняти алгоритм кластеризации:
мінімально можлива кількість проходів по базі даних;
робота за обмеженого об’єму оперативної пам'яті комп'ютера;
роботу алгоритму можна перервати зі збереженням проміжних результатів, щоб продовжити обчислення пізніше;
алгоритм повинен працювати, якщо об'єкти з бази даних можуть витягуватись в режимі односпрямованого курсору (тобто в режимі навігації по записах).
Алгоритм, що задовільняє ці вимоги (особливо другу), називають масштабованим (scalable). При незмінному об’му оперативної пам'яті комп’ютера та зі збільшенням числа записів у базі даних час роботи масштабованого алгоритму зростає лінійно.
Самоорганізовані карти
Алгоритм функціонування самоорганізованих карт (Self Organizing Maps - SOM) є одним із варіантів кластеризації багатомірних векторів – алгоритм проектування зі збереженням топологічної подоби.
Прикладом таких алгоритмів може служити алгоритм k-найближчих середніх (k-means). Важливою відмінністю алгоритму SOM є те, що в ньому всі нейрони (вузли, центри класів) упорядковані в деяку структуру (звичайно двовимірну сітку). При цьому, у ході навчання модифікується не тільки нейрон-переможець (нейрон карти, що найбільшою мірою відповідає вектору входів і визначає до якого класу ставиться приклад), але і його сусіди, хоча й у меншому ступені. За рахунок цього SOM можна вважати одним з методів проектування багатомірного простору в простір з більше низькою розмірністю. При використанні цього алгоритму,...